Abstract
- ์ต๊ทผ ๊ฐํํ์ต์ ์์ฐจ์ ์ธ ์์ฌ๊ฒฐ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋๋ฐ์ ์๋นํ ์ฑ๊ณต์ ๊ฑฐ๋์๋ค.
- ์ด๋ฌํ ์ฑ๊ณต๋ค์๋ ๋ถ๊ตฌํ๊ณ
multi agent reinforcement learning
(MARL)์ ๋ํ ์ด๋ก ์ ์ธ ๊ธฐ์ด๋ ์๋์ ์ผ๋ก ๋ถ์กฑํ๋ค. - ๋ฐ๋ผ์ ์ด ๋ ผ๋ฌธ์์๋ ๋ช ๊ฐ์ง MARL ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฒด์ ์ผ๋ก ์ค๋ช ํ๊ณ ์ด๋ก ์ ์ผ๋ก ๋ถ์ํ๋ค.
- ๋ฟ๋ง์๋๋ผ ์ค์ํ์ง๋ง ๋ค์ ๋์ ์ ์ธ ๋๊ด๋ค๋ ์ ์ํ๋ค.
- ๋ ผ๋ฌธ์ ๊ถ๊ทน์ ์ธ ๋ชฉํ๋ ํ์ฌ์ MARL ๋ถ์ผ์ ๋ํ ์๊ฒฌ,ํ๊ฐ์ ์ ์ํ๋ ๊ฒ์ ๋์ด์ ์ ์ตํ ์ฐ๊ตฌ๋ฐฉํฅ์ ์ค์ ํ ์ ์๋๋ก ๋๋ ๊ฒ์ด๋ค.
Introduction
์ต๊ทผ ๊ฐํํ์ต์ ๋ณต์กํ ํจ์๋ฅผ ๊ทผ์ฌํ ์ ์๋ ๋ฅ๋ฌ๋์ ๋ฐ์ ๊ณผ ๋๋ถ์ด RL์ ๋๋๊ฒ ์ง๋ณดํ๋ค.
- ์๋ฅผ ๋ค๋ฉด playing real-time strategy games, playing car games, etc.
๋๋ถ๋ถ์ ์ฑ๊ณต์๋ ํ๋์
agent
๊ฐ ์กด์ฌํ๋ ๊ฒ์ด ์๋๋ผ ํ๋ ์ด์์๋ค์์ agent
๊ฐ ์ฐธ์ฌํ๋ฉฐ ์ด๋MARL
๋ก ๋ชจ๋ธ๋ง ๋๋ค.MARL์ ๊ตฌ์ฒด์ ์ผ๋ก ๋ญ๊น?
- ๋ค์์ ์๋ฆฝํ์ฌ ์์ง์ด๋ agent๋ค์ด ์กด์ฌํ๊ณ
- ์ด๋ฌํ agent๊ฐ ๊ณตํต์ ์ธ ํ๊ฒฝ(environment)์ ๋์ฌ์์ ๋์
- ์์ฐจ์ ์ธ ์์ฌ๊ฒฐ์ ๋ฌธ์ ๋ฅผ ๋ค๋ฃฌ๋ค.
- ๊ฐ๊ฐ์ agent๋ ํ๊ฒฝ,๋ค๋ฅธ agent๋ค๊ณผ์ ์ํธ์์ฉ์ ํตํด์ ๊ทธ๋ค์ด ์ป๋ ๊ฐ๊ฐ์
return
์ ์ต๋ํ ํ๋ ค๊ณ ๋ ธ๋ ฅํ๋ค.
ํฌ๊ฒ MARL์ ๋ค์์ ์ธ ๊ฐ์ง๋ก ๊ตฌ๋ถ๋๋ค.
- fully cooperative \(\to\) agent๋ค์
๊ณต๋์ return
์ ์ต์ ํ ํ๊ธฐ ์ํด์ ํ๋ ฅํ๋ค.- ex) ๋ก๋ด์ด ๋ฌผ๊ฑด์ ์ง์ ๋ ์ฅ์์ ์ด๋ฐํ๋ ๊ฒฝ์ฐ, ์ฌ๋ฌ๋์ ์์จ์ฃผํ์ฐจ๊ฐ ๋ชฉ์ ์ง์ ๋์ฐฉ.
- fully competitive \(\to\) agent๋ค์
ํฉ์ด 0์ธ return
์ ์๋ก ์ต์ ํ ํ๊ธฐ ์ํด์ ๊ฒฝ์ํ๋ค.- ex) ๋ฐ๋,์ฒด์ค
- a mix of two \(\to\) agent๊ฐ
๋ณดํธ์ ์ธ return
์ ์ต์ ํ ํ๊ธฐ์ํด ํ๋ ฅ or ๊ฒฝ์ํ ์ ์๋ค.(ํ๋ ฅ๋ ๊ฒฝ์๋ ๋ชจ๋ ๊ฐ๋ฅํ๋ค.)- ex) ์ถ๊ตฌ,๋๊ตฌ
- fully cooperative \(\to\) agent๋ค์
MARL์ด ๋ฌด์กฐ๊ฑด ์ข์๋ณด์ด๋๋ฐ? \(\to\) ์ด๋ ค์ด ์ ์ด ๋ง๋ค.(๋ณต์ต)
- ๊ฐ ์์ด์ ํธ๋ค์ ๊ฐ๊ฐ์ return์ ์ต๋ํ ํ๋ คํจ.
๊ท ํ์
์์ ๋นํจ์จ์ ์ผ ์ ์์ผ๋ฉฐ(๋ด์๊ท ํ์์ ๋ฐ์ํ๋ ๋ฌธ์ )- ํต์ ,ํ๋ ฅ์ด ํจ์จ์ ์ผ๋ก ์ด๋ฃจ์ด์ง ์ ์๋๊ฐ์ ๋ํ ์ถ๊ฐ์ ์ธ ๊ธฐ์ค์ด ํ์ํจ.
- ์ ๋์ agent์ ๋ํ robustness๋ ์ถฉ๋ถํ๊ฐ?
- ๋ชจ๋ agent๋ ์ ๋ง๋ค์ policy๋ฅผ ๊ณ์ํด์ ํฅ์(์์ ).
- B๋ผ๋ agent๊ฐ ์ด์ ๊ณผ ๋ค๋ฅธ action์ ํ๊ฒ ๋๋ฉด environment๊ฐ ๋ณํ๊ฒ ๋๊ณ
- A๋ผ๋ agent๊ฐ ์ง๋ฉดํ๋ environment๋
non-stationary
ํด์ง๋ ๊ฒ์ ์๋ฏธ.
- ๋ชจ๋ agent์ ๋ํ action๋ค์ ์กฐํฉ,๊ฒฐํฉ์ agentํ๋ช ์ด ์ฆ๊ฐํ ์๋ก ์ง์์ ์ผ๋ก ์ฆ๊ฐ.
- ๊ฐ agent๋ ๋ค๋ฅธ agent๊ฐ ๋ฌด์์ ๊ด์ธกํ๋์ง๋ ์ ํํ,๋ชจ๋ ๊ฒ์ ์ ์ ์์.
- ๋ค๋ฅธ agent์ ๊ด์ธก์ ๋ํ ์ ํ๋ ์ ๋ณด๋ง์ ๊ฐ์ง๊ณ ๊ฐ agent๋ ๊ฒฐ์ ์ํจ.
- ์ต์ ์ ๊ฒฐ์ ์ด ์๋ suboptimalํ ๊ฒฐ์ ์ ๊ฐ์ ธ์ด.
- ๊ฐ ์์ด์ ํธ๋ค์ ๊ฐ๊ฐ์ return์ ์ต๋ํ ํ๋ คํจ.